arxiv：2407.21654v1 [cs.cv] 2024年7月31日__

arxiv：2407.21654v1 [cs.cv] 2024年7月31日

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arxiv：2407.21654v1 [cs.cv] 2024年7月31日

¥ 1.0

热度

摘要。最近的方法表明，诸如剪辑之类的大规模视觉模型可以改善语义分割性能。这些方法通常是针对像素级视觉语言对准的，但通常依赖于剪辑中的低分辨率图像特征，从而导致沿边界的类歧义。此外，剪辑文本嵌入中的全局场景代表与本地和详细的像素级特征直接相关，从而使有意义的对齐变得更加困难。为了解决这些局限性，我们介绍了MTA-CLIP，这是一个采用面具级别视觉语言对准的新型框架。具体来说，我们首先提出了掩码文本解码器，该解码器使用夹夹语言模型使用丰富的文本数据来增强掩码代表。接下来，它使用掩码到文本对比度学习将蒙版表示与文本嵌入一致。此外，我们介绍了蒙版 - 文本提示学习，利用多个上下文特定的提示文本嵌入来捕获跨口罩的各种班级表示。总体而言，MTA-CLIP可以实现最先进的工作，在标准基准数据集，ADE20K和CityScapes上平均超过2.8％和1.3％。

添加pdf代下载 VIP点击下载文件